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Коррекция словарной базы модуля 
морфологического анализа «РДМА_ИПИИ» 


Статья посвящена выявлению и коррекции ошибок словарной базы модуля морфологического анализа 
РДМА_ИПИИ. В работе сгенерированы правила определения некорректных значений морфологической 
информации, выполнена классификация видов ошибок и разработаны рекомендации по коррекции 
словарной базы. 


Введение 


Обработку естественно-языковых текстов (ЕЯТ) относят к области искусственного 
интеллекта. Технологии обработки ЕЯТ нашли своё применение в системах машинного 
перевода, поисковых системах в сети Интернет, роботах-автоответчиках [1] и т.д. 

Одним из первых этапов обработки ЕЯТ является морфологический анализ слов, 
содержащихся в тексте. В настоящее время средства морфологического анализа рус- 
скоязычных текстов являются достаточно развитыми — результаты их оценки пред- 
ставлены в [2], [3]. 

К настоящему времени ИПИИ разработаны модуль декларативного морфологи- 
ческого анализа слов русского языка «РДМА_ИПИИ» [4] и модуль морфологичес- 
кого анализа без словаря [5]. РДМА_ИПИИ в явном виде хранит парадигмы слов — 
около 3 млн словоформ, синтезированных по словарю А.А. Зализняка [6]. 

Оценка применения упомянутых модулей в рамках форума «Оценка методов 
автоматического анализа текста: морфологические парсеры русского языка» показала, 
что словарная база РДМА_ИПИИ содержит ряд ошибок, часть из которых связана с 
неверным заданием морфологической информации (МИ) словоформ - набора грам- 
матических характеристик, присущих словоформе. Источником этих ошибок могли 
служить поэтапное расширение набора грамматических характеристик, используе- 
мых в модуле, а также многочисленные процедуры пополнения и корректировки 
словарной базы, в ходе совершенствования её наполнения. 

Наличие ошибок в словарной базе РДМА_ИПИИ влечет за собой некорректные 
результаты морфологического анализа. Так как словарная база РДМА_ИПИИ явля- 
ется источником для наполнения базы данных модуля морфологического анализа без 
словаря, ошибки в ней впоследствии распространятся и на результаты бессловарного 
морфологического анализа. 

В связи с этим актуальной является разработка методик проверки словарных 
баз на наличие некорректных МИ и методики корректировки словарной базы. 

Объект исследования — словарная база модуля морфологического анализа. 

Предмет исследования — корректность морфологической информации. 
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Цель работы — коррекция словарной базы модуля морфологического анализа 
РДМА_ИПИИ. Для достижения цели поставлены и решены следующие задачи: 

— генерация правил выявления некорректных значений МИ на основе теорети- 
ческих данных и классификация видов ошибок; 

— разработка рекомендаций по коррекции словарной базы. 


Правила выявления некорректных значений МИ 


Для анализа словарной базы на наличие некорректных значений МИ выберем 
из неё все значения МИ без повторений. В результате количество различных значе- 
ний МИ составило 1359. 

На основе теоретических данных [7], [8] был сформирован набор из 96 правил. 
Эти правила можно представить в виде двух таблиц. Табл. 1 отражает перечень обя- 
зательных и недопустимых грамматических категорий для частей речи. В этой таб- 
лице грамматическая категория, обязательная для некоторой части речи, отмечена 
цифрой «1» на пересечении соответствующего столбца и строки, а недопустимая 
грамматическая категория для некоторой части речи — цифрой «0». 

Пустые ячейки таблицы на пересечении столбца и строки указывают на то, что 
грамматическая категория не является обязательной для всех словоформ данной 
части речи, в то же время парадигма слов данной части речи содержит хотя бы одну 
словоформу, которой присуща указанная грамматическая категория. В табл. 2 пред- 
ставлены правила определения некорректных значений МИ для случаев, соответ- 
ствующих пустым ячейкам табл. 1. 


Таблица 1 — Обязательные и недопустимые категории для частей речи 
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1 |Наречие 010 0 0 0 0000 01 _0 

2 |Деепричастие оо 1 0 оо 0 0 

3 |Причастие 1 1 0 О 1 0 

4 |Местоимение-прилагательное 0 оо 0 0 оо 

5 |Глагол 0 01 0 0 0 

6 |Местоимение-существительное ио о 0 0 0 0 0 0 
7 |Существительное ио о 0 0 оо 0 
8 Прилагательное 0 0 0 оо 0 
9 |Числительное ио о оо оо 0 


Для последующей ссылки на правила данной таблицы необходимо каждому из 
них присвоить некоторый идентификатор. 

Правилам табл. 1 присвоим двойной номер. Первая часть будет обозначать часть 
речи, к которой применяется правило, вторая — номер морфологической категории. 
Таким образом, правило, запрещающее ненулевое значение категории «Падеж» у 
глаголов будем обозначать 15.1. 
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Таблица 2 — Правила определения некорректных значений МИ 


рт Условие Ошибка ие 
речи 
ООО Определен род во множественном 1 
числе прилагательного 
Е МЕ: Не определен род в единственном 2 
числе прилагательного 
Одушевленность=0 И Падеж=В.п. Не определена одутевленность 3 
Ф |И(Число=Мн. ИЛИ Род=м.р.) 
Е Одушевленность;0 И (Падеж-В.п. Определена одушевленность 4 
5 ИЛИ Число=Ед. И Род#м.р.) 
Е Степень сравнения = Сравнительная Степень И Определен род в сравнительной 5 
: Род=0 степени прилагательного - 
= Степень сравнения = Сравнительная И Число:=0 и ) 
Степень сравнения = Сравнительная И Краткость*0 Е нс 7 
тельной степени прилагательного 
Степень сравнения = Сравнительная И Падеж+0 и ь 
степени прилагательного 
Краткая форма И Падеж*0 Определен падеж 9 
Тип Числительного = Порядковое И Число = Определен признак рода 10 
>. Множественное И Род = 0 
8 Тип Числительного = Порядковое И Число = Не определен признак рода И 
а Единственное И Род = 0 
ы Тип Числительного = Порядковое И Число = 0 Не определено число 12 
5 Падеж=В.п. И Одушевленность=0 Не определена одущевленность 13 
= И (Число=Мн. ИЛИ Род=м.р.) 
Одушевленность70 И (Падеж:В.п. ИЛИ Число=Ед. Определена одушевленность 14 
И Род; м.р.) 
Вид глагола = Совершенный И Настоящее время у глагола 15 
Время = Наст. вр. совершенного вида 
Вид глагола = Несовершенный И Время = Буд. ЕР У таколН ы. 
несовершенного вида 
Наклонение = Повелительное И Время+0 О р ОН оном. | 
Е наклонении глагола 
= Лицо-0 И Род=0 Не заданы лицо и род глагола 18 
— |Лицо =ОИ (Время = Наст. вр. ИЛИ Время = Буд. Не определено лицо 19 
ИЛИ Наклонение = Повелительное) 
Время = Про. вр. И Род=0 Не определен род 20 
Переходн. = Непереходный И Залог = Неверный залог 21 
Страдательный 
Форма глаг. = Возвратная И Залог = Страдательный |Неверный залог 22 
Залог = 0 Не определен залог 23 
Непереходный И Залог = Страдательный Неверный залог причастия 24 
Е Вид=Совершенный И Время*Прош.вр. Неверное время 25 
® Число=ед. И Род=0 Не определен род 26 
= Число=мн. И Род#0 Определен род 27 
= Число=0 Не определено число 28 
НЕ Краткая форма И Падеж=0 Не определен падеж 29 
Краткая форма И Падеж*0 Определен падеж 30 


В табл. 2 знаки равенство нулю («=0») значения некоторой грамматической ка- 


тегории обозначает, что эта категория не определена в анализируемой МИ, а нера- 
венство нулю («#0») говорит об определенности категории в анализируемой МИ. 
Ссылки на правила табл. 2 будем делать по их порядковому номеру (4-й столбец). 
Например, П28. 
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С применением описанных выше правил (табл. 1, 2) проведена проверка сло- 
варной базы РДМА_ИПИИ на наличие некорректных МИ. В результате было выяв- 
лено 211 значений МИ и около 44 500 словоформ, требующих корректировки. 


Корректировка словарной базы РДМА_ИПИИ 


Внесение автоматических изменений в словарную базу может явиться источни- 
ком новых ошибок. В связи с этим идеология модуля РДМА_ИПИИ требует про- 
верки человеком запланированных изменений. 

Так как количество записей, отнесённых к ошибочным, исчисляется десятками 
тысяч, необходимо автоматизировать процесс классификации некорректных МИ и 
формирования рекомендаций по корректировке словарной базы. При этом будем 
использовать следующую методику. 

1. Упорядочим таблицу некорректных МИ по убыванию количества словоформ с 
данной МИ. Назовём её Исходной таблицей МИ. Таблицу словоформ с ошибочными МИ 
назовём Таблицей словоформ. 

2. Скопируем эту таблицу в таблицу, которую назовём Остатком некорректных МИ. 

3. Выберем из таблиц 1, 2 правило, согласно которому первый элемент Остатка 
некорректных МИ является некорректным. 

4. Из Исходной таблицы выберем все записи, удовлетворяющие выбранному правилу. 
Сформулируем рекомендации по коррекции ошибки. Из Таблицы словоформ выберем все 
записи с данной ошибкой и убедимся, что применение рекомендации по коррекции ошибки 
устранит ошибку и не приведёт к появлению новых. 

5. Добавим правило к Множеству применённых правил. 

6. Сформируем Остаток некорректных МИ путём выбора из Исходной таблицы запи- 
сей, которые не удовлетворяют ни одному из Множества применённых правил. 

7. Если Остаток некорректных МИ не пуст и для его первого элемента количество 
словоформ с данной МИ больше порогового, перейти на шаг 3. 


Таблица 3 — Корректировка словарной базы 


Количество 
Правило Рекомендация 
словоформ 
П9, ПЗ0 38 468 Заменить значение категории падежа на неопределенное. 
п 010 4 794 Заменить значение категории рода на неопределенное. 
Набор словоформ разделен по леммам - получено 27 лемм. Из них: 
— 8 являются исключениями из правила и корректировке не подлежат; 
24 399 — для 1 ошибочно построены страдательные формы причастия (слово- 
формы подлежат удалению); 
—в 18 ошибочно отнесены к непереходным (заменить значение кате- 
гории переходности на «переходный»). 
113 123 Заменить значение категории одушевленности на «неодушевленное». 
пм 42 Заменить значение категории одушевленности на неопределенное. 
Данная группа содержит словоформы существительных группы р!га- 
Па апт («имеющие только множественное число»). Часть слово- 
П7. 1 120 форм этой группы определены как имеющие единственное число 
(подлежат удалению). Для остальных обнулить в МИ признак воз- 
вратной формы глагола. 
123 4 Данная группа содержит причастия от леммы «врезать», с которой 
словарная база работает некорректно. 


Результаты применения данной методики отражены в табл. 3, где также указан 
порядок применения правил и рекомендации по исправлению ошибок. Данные реко- 
мендации позволяют исправить выявленные ошибки. 
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Выводы 


Научная новизна данной работы состоит в следующем. 

1. На основе теоретических сведений сгенерированы правила выявления некор- 
ректных значений морфологической информации. 

2. Разработана методика корректировки словарной базы модуля морфологи- 
ческого анализа. 

Практическая значимость работы состоит в применимости сгенерированных 
правил и методики для выявления, анализа и исправления ошибок в МИ словарных 
баз систем обработки русскоязычных текстов на морфологическом уровне. 
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Г.В. Доромна, В.О. Акчурн 

Корегування словниково! бази модуля морфолойчного анал1зу «РДМА_ПИШШЬУ 

Статтю присвячено виявленню та корекцИ помилок словниково! бази б1блютеки морфологчного 
аналзу РДМА_ПШШ. В робот! сгенеровано правила визначення некоректних значень морфолочно! 
1нформаци, класифлковано знайден! помилки та розроблено рекомендаций щодо корекцй словниково! бази. 


С.Г. Рогокйта, Г.А. АКсйитт 

А Мотрво!ю21са! Апа!у$5 Модше «ВОМА_ТАЬ» Уосаб шагу ОРайаБазе Соггесйпо 

ТБе агасе 15 4еус{е4 ю уосаб\Шагу даёаБазе оЁ фе тогрВо|о21са| апа]уз1з тодШе «КОМА_ТАТ» еггогз 
деесНоп ап4 сотесиие. Те пез Рог фе шсоггесе тогрбо|оз1са] оппайоп уааез зеагсВ \уеге сепегае4. 
Те Коипдеа еггогз \меге с1азз1йеа. ТВеге ууеге таде Ве гесотлтепдаНопз {ю соггес( а уосаб\агу да{аБазе. 


Статья поступила в редакцию 02.07.2010. 
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